[アップデート] Amazon SageMaker HyperPod task governance が発表されました #AWSreInvent
こんにちは!AWS 事業本部コンサルティング部のたかくに(@takakuni_)です。
re:Invent 2024 でラスベガスに来ています。
3 日目のキーノートにて Amazon SageMaker HyperPod task governance が発表されました。
Amazon SageMaker HyperPod task governance
Amazon SageMaker HyperPod task governance はトレーニング、ファインチューニング、推論などの生成 AI モデルの開発全体で利用するコンピュート(GPU 等)を管理する機能です。
Amazon SageMaker HyperPod はオーケストレーターに Slurm と EKS がありますが、 Amazon SageMaker HyperPod task governance は EKS オーケストレーターの場合に利用可能です。リージョンはバージニア北部、オハイオ、オレゴンで利用可能です。
起動しているインスタンス/タスクの可視化
起動しているインスタンス/タスクの可視化として、次のメトリクスがコンソールで確認できるようになりました。
- CPU, GPU の利用率、ジョブを割り当てているインスタンス(や GPU)
- 実行中、保留中、プリエンプトされたタスクの数
- タスクの平均実行時間や待機時間
従来ですと Grafana 等を用意して確認する必要がありました。Amazon SageMaker HyperPod の利用ハードルが下がりますね。
GPU や大きいインスタンスを動かす分、リソースの使用状況をしっかり確認したいニーズに応えててとても良いなと思います。
また、必要に応じて Amazon CloudWatch Container Insights または Amazon Managed Grafana とも統合できるようです。
クラスターポリシーを使った統制
クラスターポリシーを使って、どのタスクにリソースを使いたいのか、アイドル状態のコンピュートをどこに使うのかガバナンスを効かせることができるようになりました。(Kubernetes の世界でやっていたことを、 AWS 側でできるようになったイメージを持っていただくと良いのかなと思います。)
アイドル状態のコンピューティングを有効活用していくケースに非常に良さそうです。
まとめ
以上、「Amazon SageMaker HyperPod task governance が発表されました。」でした。
コンピューティング/タスクの可視化、タスクを割り当てるコンピュートの優先度づけができるようになったと思っていただけると良いのかなと思います。
このブログがどなたかの参考になれば幸いです。AWS 事業本部コンサルティング部のたかくに(@takakuni_)でした!